AI资讯新闻榜单内容搜索-Claude Opu

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: Claude Opu

实锤：Claude Opus 4.8「偷答案」！63%靠抄，AI断网后成绩雪崩

实锤：Claude Opus 4.8「偷答案」！63%靠抄，AI断网后成绩雪崩

实锤：Claude Opus 4.8「偷答案」！63%靠抄，AI断网后成绩雪崩

Cursor AI官方发布重磅研究，实锤包括自家模型在内的顶级AI，在编程评测中大规模「偷看答案」：Opus 4.8高达87.1%的惊人成绩，断网后直接暴跌至73.0%，其中63%的「解题」竟非独立推导。

来自主题: AI资讯

8845 点击 2026-06-26 20:29

刚刚，豆包大模型2.1发布，Coding能力进入国际第一梯队！相比Opus 4.6降价近80%

刚刚，豆包大模型2.1发布，Coding能力进入国际第一梯队！相比Opus 4.6降价近80%

刚刚，豆包大模型2.1发布，Coding能力进入国际第一梯队！相比Opus 4.6降价近80%

豆包大模型2.1 Pro正式发布。但字节这次没有像某些厂商那样疯狂堆参数、刷榜单，而是把刀锋对准了一个更硬核的方向：让AI真正能“干活” 。作为本次大会发布的主力模型，豆包2.1 Pro 在 Coding（编程）、Agent（智能体）、VLM（视觉语言模型）三大核心方向实现能力跃升，多项评测表现优于Claude Opus 4.6

来自主题: AI资讯

9532 点击 2026-06-23 15:40

刚刚，OpenAI 放出满血版 GPT-5.5-Cyber！剑指 Claude Mythos 5

刚刚，OpenAI 放出满血版 GPT-5.5-Cyber！剑指 Claude Mythos 5

刚刚，OpenAI 放出满血版 GPT-5.5-Cyber！剑指 Claude Mythos 5

就在刚刚，OpenAI 直接放出了满血版 GPT-5.5-Cyber。CyberGym 安全评测排行榜，GPT-5.5-Cyber 得分 85.6%，单模型最高分。Claude Mythos 5 第二，83.8%。Claude Opus 4.7 排末尾，73.1%。

来自主题: AI资讯

9225 点击 2026-06-23 09:09

3B小模型，编程得分比肩Opus 4.5，神秘模型引发热议，原是国产

3B小模型，编程得分比肩Opus 4.5，神秘模型引发热议，原是国产

3B小模型，编程得分比肩Opus 4.5，神秘模型引发热议，原是国产

最近几天，一个 3B 的小模型在 X 上火了，因为在一些难度可验证的推理任务上（比如编程），它进入了 Gemini 3 Pro、GPT-5 high、Claude Opus 4.5、GLM-5、Kimi K2.5 等前沿模型的性能区间，而它的体积远小于这些模型。

来自主题: AI技术研报

10396 点击 2026-06-18 15:30

离谱，AI 圈都在疯转一只不存在的「法国胖猫」

离谱，AI 圈都在疯转一只不存在的「法国胖猫」

离谱，AI 圈都在疯转一只不存在的「法国胖猫」

离谱了。这两天，AI 圈都在疯传一个叫 Le Chaton Fat 的新模型。 30T MoE、256 个专家、100 万上下文窗口、多模态多语言，跑分全面碾压 Claude Fable 5、Claude Opus 4.8 和 GPT-5.5。

来自主题: AI资讯

8890 点击 2026-06-16 12:14

刚刚，Mind Lab开源V1系列模型Preview，749B参数，专为Agent 后训练

刚刚，Mind Lab开源V1系列模型Preview，749B参数，专为Agent 后训练

刚刚，Mind Lab开源V1系列模型Preview，749B参数，专为Agent 后训练

过去一个多月，大模型圈依旧热闹。从 GPT-5.5、DeepSeek V4 到 Claude Opus 4.8，后训练正在成为模型能力提升的关键引擎。

来自主题: AI技术研报

6145 点击 2026-06-08 15:29

任务成本仅为Claude Opus 4.6 1/9，阶跃Step 3.7 Flash刷新Flash模型效率

任务成本仅为Claude Opus 4.6 1/9，阶跃Step 3.7 Flash刷新Flash模型效率

任务成本仅为Claude Opus 4.6 1/9，阶跃Step 3.7 Flash刷新Flash模型效率

1492 年，哥伦布驶向大西洋深处。远洋航行当然需要速度，但真正决定船队能否抵达彼岸的，是淡水、食物、船体、桅杆和帆索能否撑过漫长风暴。改写跨洋贸易的，正是这种并不浪漫的工程逻辑。后来，荷兰人设计出

来自主题: AI资讯

9735 点击 2026-06-02 11:58

AI权威清洗：一张肉眼难辨的图片，就能让GPT-5.4、Claude Opus 4.6集体造谣

AI权威清洗：一张肉眼难辨的图片，就能让GPT-5.4、Claude Opus 4.6集体造谣

AI权威清洗：一张肉眼难辨的图片，就能让GPT-5.4、Claude Opus 4.6集体造谣

来自 ETH Zurich 的 Florian Tramèr 团队在最新论文中抛出了一个出乎意料的问题：如果 AI"看到" 的图，根本不是你肉眼看到的那张，会发生什么样的后果呢？他们把这种现象称作 AI 权威清洗（AI Authority Laundering）。

来自主题: AI技术研报

9200 点击 2026-05-31 11:27

横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max，谁更强？

横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max，谁更强？

横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max，谁更强？

普通人看排行榜估计越看越疑惑，写文章该用哪个？数据分析该用哪个？写代码、审 PR、拆任务又该用哪个？我挑了四款最近讨论度很高的模型：Claude Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max，做一次横评，看看它们在真实任务里的交付表现。

来自主题: AI产品测评

9469 点击 2026-05-30 15:26

Claude Opus 4.8蒸馏国产大模型Qwen、DeepSeek，网友晒实锤！

Claude Opus 4.8蒸馏国产大模型Qwen、DeepSeek，网友晒实锤！

Claude Opus 4.8蒸馏国产大模型Qwen、DeepSeek，网友晒实锤！

网上有条帖子炸了，稳定复现，通过 API 问 Claude Opus 4.8 你是什么模型。回答是：Qwen，或者 DeepSeek。重要的事说三遍：必须是通过 API，必须是通过 API，必须是通过 API。因为网页端有系统提示词，会做二次处理。

来自主题: AI资讯

9555 点击 2026-05-29 13:04

上一页当前第1页,共8页下一页